#AI Agent

宝玉
2周前
现在很多 Context Engineering 谈的是如何构建 AI Agents 用到的技术,对于普通人未必适用,我总结了一点普通人使用 AI 时用得上的 Context Engineering。 Context Engineering 核心是两点: 一、更少的上下文 二、更准确的上下文 一、更少的上下文 这条有点反常识,现在提示词都超长,似乎提示词不长就不好了,但实际上,提示词太长会影响生成结果,产生幻觉,尤其是太多无关的内容在上下文更会如此。 对此两点注意的: 1). 多开新会话而不是同一个会话一直聊 当你会话太长,后续你发的内容,AI 不容易抓住重点,可能会忘记你前面说的,最好是到一定程度,让 AI 帮你总结一下重点,然后新开会话。如果是和当前会话无关的任务,直接新开会话。 2). 一次一个小的任务,而不是太复杂的任务 这有点像人,当你任务太多太复杂,AI 很难完成好,但是你让 AI 一次完成一个小任务,就好很多。 二、更准确的上下文 准确的上下文好理解,就是让 AI 更准确的知道你想要什么,以及它有完成任务所需要的信息 要让 AI 获得更准确的上下文,有两种主要方式,这两种方式互为补充。 一种就是我们提供准确和充足的上下文给 AI,另一种就是让 AI 帮我们找到上下文。 1. 我们提供准确和充足的上下文给 AI AI 并不知道我们知道的信息,所以我们需要主动告诉AI我们知道它不知道的信息,比如说让AI帮我写简历,那我得把我的信息都告诉AI,不然它也写不出来。 使用AI写代码,一个实用的技巧就是把你知道的相关的文件都提供给它参考,让它可以读到文件内容,这样它就不会遗漏重要信息。 2. 让 AI 帮我们找到上下文 现在 AI Agent 都有能力帮我们找上下文,但能力有好优化,对于普通人来说,这几点直观重要: 1). 选擅长 Agent 任务模型 Claude 4 Opus/Sonnet, OpenAI o3 是 Agent 效果最好的,现在国产的很多专门为 Agent 优化过的模型也很强了,比如 Doubao Think 1.6, GLM 4.5, Kimi K2 等等 2). 为 AI 提供合适的工具 Agent 最重要的就是有工具能力,能借助工具去找上下文,但是它只有内置的几个工具,有时候需要你提供额外的工具会更有效,比如现在的 MCP 工具,可以让 AI 访问到一些内部的数据,或者操作浏览器等等。 编程的时候,我自己有个常用的技巧:就是让 AI 写测试代码,并告诉AI如何测试单个文件,这样 AI 就可以自己去验证自己写的结果,实现完功能写测试,写完测试运行,运行出错去修复,直到完成,这样不需要太多干预就可以得到不错的结果,当然还是要人工审查一下,有时候 AI 为了通过测试会无所不用其极…… 3). 让 AI 先做计划,避免在错误的方向越走越远 对于复杂一点的任务,如果AI方向错了,就会在错误的方向越走越远,白白浪费tokens,现在像 Claude Code 这样的AI Agent都会有Plan mode,就是先做计划,做完计划仔细看一下计划内容,如果方向不对,就需要让它改正,或者直接重开新会话,调整提示词,让 AI 搞清楚正确的方向是什么,方向对了再去执行。 上面就是我整理的一点经验技巧,希望对你有用,也欢迎交流分享。
AI Agent 到底是什么?从 Jennings 定义谈起 “AI Agent”这一术语虽在近年大热,但其核心概念早已由 Nicholas R. Jennings 与 Michael Wooldridge 在 1995 年的《Intelligent Agents: Theory and Practice》中系统确立。他们将“智能体”定义为:一个嵌入特定环境中的计算系统,能够在该环境中自主行动以实现其设计目标。这一定义成为多智能体系统(MAS)研究的基础,并提出四项衡量智能体的关键属性:自主性(能独立运行)、反应性(感知并响应环境变化)、前瞻性(基于目标采取主动行动)与社会性(能够协作与沟通)。 然而,在当下的工程实践中,要真正实现这四大属性仍具有相当高的难度。尽管 ReAct、AutoGen、LangGraph、CrewAI 等主流框架纷纷打出“Agent”旗号,它们多数仍停留在“语言模型 + 工具调用”的阶段,缺乏结构化的状态封装、计划机制与交互协议。这些系统通常依赖自然语言记忆作为状态存储,对环境的感知局限于文本输入输出,目标与计划的建模大多被简化甚至省略,而协作机制也往往停留在对话模拟层面,缺乏真实的社会行为协议与组织控制结构。 换句话说,当代 LLM Agent 多数只能在表层满足 Jennings 框架中的“工具调用”与“表面协作”,而在真正的状态感知、计划能力、环境互动与协作协议等方面仍存在明显工程落差。它们更像是 prompt 的包装器,而非具备认知与调度能力的结构性智能体。 要真正构建接近 Jennings 理想的 AI Agent,必须引入可解释的状态模型与持久记忆结构、明确的计划调度机制、标准化的交互协议以及多轮对话中的身份与行为一致性。只有当智能体具备了这些结构能力,它才不再是一个被动执行的语言函数,而是一个真正能够协同、规划、反应并自主演化的结构系统单元。 真正的智能体到底值不值得投入研究?还是说,它会不会最终成为一个耗尽心力、却注定走入死胡同的幻象? 这个问题越来越像一面照妖镜。现实世界里,有太多曾被寄予厚望的底层技术,最终悄无声息地被市场淘汰、被工程复杂性吞噬。Jennings 所定义的理想型智能体,正面临类似的命运风险。它拥有令人敬畏的结构理想—— 🧱 结构性:每一个模块边界清晰、可组合、可迁移; 🧠 状态性:具备可追踪、可持久、可调度的运行状态; 💾 记忆性:融合语义唤醒与行为经验的双系统记忆机制; 🧭 路径性:支持非线性、多策略、可重构的执行结构; 🤖 调度性:能够统一调度工具、任务、子 Agent; 🔁 自演化:具备反思、失败容忍、成长与优化能力。 这简直就是我心中最理想的“结构人格”,我是无比憧憬的。这个甚至能完美解决上下文的问题。 看起来无比完美,却让人光是读完就头皮发麻。工程难度极高,构建成本惊人,调试流程复杂,状态不可控,行为难以解释。我也怀疑:这样一个理想结构真的能落地吗?它真的有价值吗? (2/n)
宝玉
1个月前
一文看懂“提示词” vs “提示词工程” vs “上下文工程” 很多人分不清楚什么是“提示词”(Prompt),什么是“提示词工程”(Prompt Engineering),现在还又多了一个概念叫“上下文工程”(Context Engineering),这又和“提示词工程”什么区别? 什么是提示词(Prompt)? 提示词很好理解,就是给 AI 模型的输入文本,就是你直接向模型输入的问题或指令。 比如你让 ChatGPT 总结一段文本、调用模型 API 传入提示词去翻译一篇文章等等。 提示词是一段文本,有点像代码。 什么是提示词工程(Prompt Engineering)? 提示词工程是一个过程,系统化地设计、测试、优化提示词的过程。 就像软件工程,我们为了完成某个需求,要有一套科学的方法来帮助完成软件开发的过程,有方法论(比如敏捷开发),要使用工具,要保证质量,不断迭代,最终交付软件,或者说代码。 举个例子 比如我们要有个提示词帮助翻译英文文章到中文。 普通人都可以写: “请把下面的英文内容翻译为中文:” 这就是一段提示词。 但是你会发现虽然能翻译,但是似乎翻译效果不够好,于是你开始想办法优化,让 AI 扮演一个英文翻译到中文的专家,发现似乎有点效果。 但还是翻译有点生硬,然后你看有人介绍了 CoT(思维链,Chain of Though),于是尝试在提示词中让 AI 去先直译再意译,但你也不知道这样的改动是不是真的有用,于是你找了10篇文章,分别用加了 CoT 和没加 CoT 的文章,去用相同的模型去翻译,然后找了几个人,在不告诉他们使用什么方法翻译的情况下让他们评估好坏,结果绝大部分都认为加了 CoT 的效果更好,那么你就明白了,原来加了 CoT 对翻译是有效果的。 于是你受到鼓舞,即然 CoT 有效果,那么我在直译、意译的基础上,继续增加一个 AI 对直译结果的评估,再去意译,甚至再多加几步是不是效果更好?再继续改进提示词,拿着之前的测试集去评估测试,果然测试效果更好,但是也带来新的问题,Token 消耗更多,时间更长,还可能会偏离原意。CoT 也并不见得步骤越多越好。 再后来推理模型发布了,你发现模型自己会 CoT 了,语言能力也更强了,原来繁琐的一步步翻译似乎没有必要,于是进一步优化,发现只要在提示词中让模型“用中文重写”就可以达到很好的翻译效果,测试集评估结果也是正面的。 这整个对翻译提示词“设计”、“测试”、“优化”的过程就是提示工程。 最终通过这样的过程,产生出一个版本一个版本的提示词。 再精炼浓缩一下:提示词工程是产生提示词的过程。 什么是上下文工程(Context Engineering)? 要理解上下文工程,先得搞清楚什么是“上下文”(Context)? “上下文”不仅仅是发给大语言模型的一句提示词,而是模型生成回答之前所看到的一切信息,这些信息包括系统提示词、用户输入的问题、当前对话的历史消息、系统对你的历史记忆、工具返回的信息等等。 另外上下文窗口不是无限的,每个模型都对上下文的长度有限制,通常上下文内容多了会影响性能,所以控制好发送给 AI 的上下文很重要,既不能遗漏,又不能什么都放进去要控制体积。 举个例子,你跟 ChatGPT 说: “今天都有什么重要的 AI 新闻?” 看起来只是一句话,但是对于大模型来说,初始的上下文有这些: • 系统提示词:“你是个有用的助手,总是帮用户解决问题” • 用户输入:“今天都有什么重要的 AI 新闻?” • 可用工具:“日期工具、搜索工具、网页抓取工具” • 长期记忆:“用户主要使用中文” • 历史会话消息:无 • 工具返回信息:无 这些上下文不足以让 AI 回答你的问题,于是它需要自己去调用工具找齐上下文: • 根据日期工具获取到今天的日期(大模型自己不知道今天是几号) • 根据今天的日期去调用搜索工具检索 AI 新闻 调用完工具后,现在 AI 的信息完整了: • 系统提示词:“你是个有用的助手,总是帮用户解决问题” • 用户输入:“今天都有什么重要的 AI 新闻?” • 可用工具:“日期工具、搜索工具、网页抓取工具” • 长期记忆:“用户主要使用中文” • 历史会话消息:无 • 工具返回信息: • 2025-7-1 • Hollywood Confronts AI Copyright Chaos in Washington, Courts • Mark Zuckerberg Announces New Meta ‘Superintelligence Labs’ Unit 现在信息够了,考虑用户偏好中文,最后返回的内容如下: 今天的 AI 新闻有: • 好莱坞在华盛顿和法院直面人工智能版权混乱 • 马克·扎克伯格宣布成立新的“超级智能实验室”部门 马克·扎克伯格宣布成立新的“超级智能实验室”部门 假如用户再追问一句: “帮我返回第二条新闻的详情” 那么模型要从历史会话里面,找到第二条新闻的链接,再去调用网页抓取工具,把新闻内容抓取下来,根据用户的偏好翻译成中文,最后返回用户中文的新闻内容。 注意看这个构建上下文的过程是完全动态的,并不是按照设计好的工作流去收集上下文,而是模型自己根据当前上下文状态去自主动态的调用工具收集上下文,并且不同的任务需要调用的工具也不一样。 这其实也就是现在 AI Agent 的工作原理:能分辨是否已经收集够了完成任务必要的上下文,能自主决定是不是需要借助工具或者对话来补齐上下文。 上下文工程的概念也正是在 AI Agent 爆发的背景下诞生的。原来单纯靠提示词工程已经无法满足 AI Agent 产品的需求了,AI Agent 需要的更多的是为系统设计好工具、定义好工具和模型之间交互的数据格式、有效组织上下文信息提供给模型(内容长了要不要压缩、怎么压缩)等等。 上下文工程(Context Engineering),就是一门为 AI 设计和构建动态上下文的学科,为大语言模型提供恰当的信息和工具,帮助模型高效完成任务。 > “上下文工程”指的是一种精妙而复杂的技术:你要精准地将上下文窗口填充上恰到好处的信息,让模型能准确地迈出下一步。 > 这是一门科学,也是门艺术。 > > 说它是科学,因为你要把任务描述、说明、少量样例(few-shot examples)、检索增强生成(RAG)、各种相关数据(甚至可能是多模态数据)、工具、状态、历史信息等全部巧妙地组合在一起,同时还要考虑如何压缩信息。这就像烹饪一道精致的菜肴,配料太少或搭配不对,模型无法获得足够的信息,性能会变差;配料太多或毫无关联,则会增加成本甚至降低表现。要做好这件事,需要的不仅仅是简单堆叠,更是高度专业化的技巧。 > > 说它是艺术,则是因为操作者还要掌握一种近似“心理学”的直觉,敏锐地洞察 LLM 和人类用户心理之间的微妙互动。 > > ——Andrej Karpathy 最后 分别一句话总结一下 • 提示词: 发送给 AI 的问题或者指令文本 • 提示词工程: 系统化地设计、测试、优化提示词的过程。 • 上下文工程: 为大语言模型提供恰当的上下文、帮助模型高效完成任务的科学和艺术。 如果没理解这些概念也没关系,对于普通人来说,能写提示词就够了,要开发 AI 应用才需要考虑提示词工程去不断优化提示词,要开发动态的 AI 智能体才需要去搞上下文工程为 AI 的上下文窗口填充恰好的信息。
Rocky
1个月前
持续加仓了挺多 #Sahara,数据📊来看从昨晚到今天,一波空投和机构解锁,砸盘基本接近尾声了,从合约的成交量来看,也极具萎缩到了极点,俗话说地量见地价,但我们很少碰合约,买的基本都是现货。另外公募成本在0.06,FDV为6亿美金,公募市值也是最后一轮融资的估值。目前8亿FDV也仅仅比6亿多了33%,而且机构还有锁仓。又是大满贯CEX选手,基本主流交易所都上了。也属于我们长期关注的 #AI 赛道的掌上明珠——#AI 公链。所以这个位置,赔率还算不错! 说句大实话,最近 #AI 和区块链结合的项目越来越多,但大部分还停留在“讲概念”的阶段。真正能落地的,没几个。而我看完 #Sahara 的产品更新和进展之后,真觉得它可能是为数不多能跑出来的那个顶流。 它作为一个做“#AI 公链”的平台,就像以太坊让你发币、发NFT,#Sahara 是让你部署、拥有、变现你的 AI Agent。像我们早期玩 #AI meme,#AI16Z 巅峰期都有接近25亿美金,而作为一个完整的 AI on-chain 基础设施,目前8亿估值来说,还是挺香。尤其是最近出来的两大王牌产品,将真正打开 #AI 平权化时代,让 #AI 实现人人可用,人人可受益。 1️⃣Agent Builder —— 无代码AI代理构建器 人人可使用的一个超简洁的网页工具,你点几下、选个模型、上传数据,几分钟就能搭一个智能体,马上就能上线用。 2️⃣AI Marketplace —— 开源模型 + 数据集的商店 你不用再翻GitHub、Hugging Face,从 Marketplace 直接拉你想要的模型、数据,一键集成进Agent里。 以后你可以用 #Sahara 来做: •客服机器人 •法律助理 •私人智能秘书 •企业内训助手 等等等等…上述两者结合起来,只要你想到,有点数据,你就可以搭建自己的专属 #AI Agent,而且你不需要会编程,也不需要部署服务器,它帮你全包了,当场生成能跑的 API 接口,真的很丝滑,还能上架获得收益。 🪙 代币 $SAHARA 不是花瓶,拥有完善的价值捕获机制 我们都害怕“空气币”,但 #Sahara 这点我觉得设计得挺实在的。 他们的代币不是拿来摆设的,而是整个平台运作的核心: •你要上传数据、调用模型 → 用 $SAHARA 支付 •模型作者、数据标注员、Agent开发者 → 都可以赚 $SAHARA •后面支持 License 授权和链上分成 → 你上架的 Agent 被别人用也能自动收钱 这就像你发了一个音乐作品,有人二创、商用,平台直接分成给你,不用你盯着。我觉得这是最可能把开源 #AI 和商业结合起来的一套方案。 🔥 跟 #Bittensor 对比一下,你就知道它潜力多大 很多人知道 #Bittensor( $TAO ),也是 AI × Layer1 的代表,现在估值已经 $67亿 美金了。 • Sahara 路线很像:都是做 #AI 基础设施 • 但 Sahara 的方向更贴近实际开发,门槛更低 • #Sahara 还拿到了 Upbit(韩元最大交易所)的支持,这一点 #Bittensor 都没做到。 而现在 Sahara 的市值才刚启动阶段,从估值角度看,我们认为空间还是挺大的。 最后,我们研究 #AI 比较长时间,从23年年初 ChatGPT诞生,就一直至今。很多 #AI 项目讲故事讲概念的居多,但真正能带来落地场景,真正价值用途的很少,而且闭环能跑通的那更是凤毛麟角。而 #Sahara 是一个例外。它不只是在讲愿景,而是已经有工具、有用户、有流程能跑通了。开发者可以来构建,普通人可以来用,代币有用、有销、有分成。假如您跟我一样认可#AI 赛道的长远价值,不妨先去试试 #Sahara Agent Builder功能,先去体验一下他们的产品,然后再综合做判断它的投资潜力,或许您更有信心。🧐